Jeg skriver for øyeblikket en grunnleggende parser for en XML-smak. Som en øvelse implementerer jeg en LL-borddrevet parser. Dette er mitt eksempel på BNF-grammatikk: % tokenavn datastreng %% / * LL (1) * / doc: elem elem: "<" open_tag open_tag: name attr close_tag close_tag: ">" elem_or_data "" name ">" | "/>" ; elem_or_data: "<" open_tag elem_or_data | data elem_or_data | / * epsilon * / ; attr: name ":" string attr | / * epsilon * / ; Er denne grammatikken riktig? Hver terminal bokstavelig er mellom anførselstegn. De abstrakte terminalene er spesifisert av% token. Jeg koder en håndskrevet lexer for å konvertere innspillene mine til en tokenliste. Hvordan skulle jeg tokenisere de abstrakte terminalene?
2021-03-03 08:11:59
Den klassiske tilnærmingen ville være å skrive et vanlig uttrykk (eller annen gjenkjenning) for hver mulig terminal. Det du kaller "abstrakte" terminaler, som er helt konkrete, er faktisk terminaler hvis tilknyttede mønstre gjenkjenner mer enn en mulig inngangsstreng. Strengen som faktisk er gjenkjent (eller en eller annen beregnet funksjon av den strengen) skal sendes til parseren som symbolets semantiske verdi. Nominelt, på hvert punkt i inngangsstrengen, kjører tokeniser alle gjenkjennere og velger den som har lengst samsvar. (Dette er den såkalte "maksimale munch" -regelen.) Dette kan vanligvis optimaliseres, spesielt hvis alle mønstrene er vanlige uttrykk. (F) lex vil gjøre den optimaliseringen for deg, for eksempel. En komplikasjon i ditt tilfelle er at tokeniseringen av språket ditt er kontekstavhengig. Spesielt når målet er elem_or_data, er de eneste mulige tokens <, og "data". Imidlertid er ikke "data" inne i en tagg mulig, og "name" og "string" -koder er mulig (blant andre). Det er også mulig at verdien av et attributt kan ha samme leksikalske form som nøkkelen (dvs. et navn). I selve XML må attributtverdien være en sitert streng og bruken av en ikke sitert streng vil bli flagget som en feil, men det er absolutt "XML-lignende" språk (som HTML) der attributtverdier uten hvitt mellomrom kan settes inn ikke sitert. Siden den leksikale analysen er avhengig av kontekst, må den leksikale analysatoren sendes (eller ha tilgang til) en ekstra informasjon som definerer den leksikale konteksten. Dette blir vanligvis representert som en enkelt oppregningsverdi, som kan beregnes basert på de siste få tokens som er returnert, eller basert på det FØRSTE settet med den nåværende parserstakken. 2 | Ditt svar StackExchange.ifUsing ("editor", function () { StackExchange.using ("externalEditor", funksjon () { StackExchange.using ("snippets", function () { StackExchange.snippets.init (); }); }); }, "kodebiter"); StackExchange.ready (funksjon () { var channelOptions = { tagger: "" .split (""), id: "1" }; initTagRenderer ("". split (""), "" .split (""), channelOptions); StackExchange.using ("externalEditor", funksjon () { // Må utløse redaktøren etter utdrag, hvis utdrag er aktivert hvis (StackExchange.settings.snippets.snippetsEnabled) { StackExchange.using ("snippets", function () { createEditor (); }); } annet { createEditor (); } }); funksjon createEditor () { StackExchange.prepareEditor ({ useStacksEditor: false, hjerteslagType: 'svar', autoActivateHeartbeat: false, convertImagesToLinks: sant, noModals: sant, showLowRepImageUploadWarning: true, reputToPostImages: 10, bindNavPrevention: true, postfix: "", imageUploader: { brandingHtml: "Drevet av \ u003ca href = \" https: //imgur.com/ \ "\ u003e \ u003csvg class = \" svg-icon \ "width = \" 50 \ "height = \" 18 \ "viewBox = \ "0 0 50 18 \" fill = \ "none \" xmlns = \ "http: //www.w3.org/2000/svg \" \ u003e \ u003cpath d = \ "M46.1709 9.17788C46.1709 8.26454 46.2665 7.94324 47.1084 7.58816C47.4091 7.46349 47.7169 7.36433 48.0099 7.26993C48.9099 6.97997 49.672 6.73443 49.672 5.93063C49.672 5.22043 48.9832 4.61182 48.1414 4.61182C47.4335 4.61182 46.7256 4.916 43.1481 6.59048V11.9512C43.1481 13.2535 43.6264 13.8962 44.6595 13.8962C45.6924 13.8962 46.1709 13.2535 46.1709 11.9512V9.17788Z \ "/ \ u003e \ u003cpath d = \" M32.492 10.1419C4.4.014.42 12.6 12.4 41.5985 12.6954 41.5985 10.1419V6.59049C41.5985 5.28821 41.1394 4.66232 40.1061 4.66232C39.0732 4.66232 38.5948 5.28821 38.5948 6.59049V9.60062C38.5948 10.8521 38.2696 11.5455 37.0451 11.545.5 521 35.4954 9.60062V6.59049C35.4954 5.28821 35.0173 4.66232 34.0034 4.66232C32.9703 4.66232 32.492 5.28821 32.492 6.59049V10.1419Z \ "/ \ u003e \ u003cpath fill-rule = \" evenodd \ "clip-rule = \" evend = \ "M25.6622 17.6335C27.8049 17.6335 29.3739 16.9402 30.2537 15.6379C30.8468 14.7755 30.9615 13.5579 30.9615 11.9512V6.59049C30.9615 5.28821 30.4833 4.66231 29.4502 4.66231C28.9913.561.466.4 .1369 4.56087 21.0134 6.57349 21.0134 9.27932C21.0134 11.9852 23.003 13.913 25.3754 13.913C26.5612 13.913 27.4607 13.4902 28.1109 12.6616C28.1109 12.7229 28.1161 12.7799 28.121 12.8346C28.125.226 15.2321 24.1352 14.9821 23.5661 14.7787C23.176 14.6393 22.8472 14.5218 22.5437 14.5218C21.7977 14.5218 21.2429 15.0123 21.2429 15.6887C21.2429 16.7375 22.9072 17.6335 25.6622 17.63351724.224.17 27.2119 7.09766 28.0918 7.94324 28.0918 9.27932C28.0918 10.6321 27.2311 11.5116 26.1024 11.5116C24.9737 11.5116 24.1317 10.6491 24.1317 9.27932Z \ "/ \ u003e \ u003cpath d = \" M16.8045 11.95129.66.280.24513.8962C19.3298 13.8962 19.8079 13.2535 19.8079 11.9512V8.12928C19.8079 5.82936 18.4879 4.62866 16.4027 4.62866C15.1594 4.62866 14.279 4.98375 13.3609 5.88013C12.653 5.05154 11.6581 4.62866 728669.3328 13.9157 13.2535 13.9157 11.9512V8.90741C13.9157 7.58817 14.3365 6.91179 15.4269 6.91179C16.4027 6.91179 u .31675 5.28821 2.83866 4.66232 1.82471 4.66232C0.791758 4.66232 0.313354 5.28821.213351 13.2535 3.316 75 11.9512V6. Z \ "fill = \" # 1BB76E \ "/ \ u003e \ u003c / svg \ u003e \ u003c / a \ u003e", contentPolicyHtml: "Brukerbidrag lisensiert under \ u003ca href = \" https: //stackoverflow.com/help/licensing \ "\ u003ecc by-sa \ u003c / a \ u003e \ u003ca href = \" https://stackoverflow.com / legal / content-policy \ "\ u003e (policy for innhold) \ u003c / a \ u003e", allowUrls: sant }, onDemand: sant, discardSelector: ".discard-answer" , umiddelbartShowMarkdownHelp: true, enableTables: true, enableSnippets: true }); } }); Takk for at du bidro med svaret på Stack Overflow! Sørg for å svare på spørsmålet. Gi detaljer og del din forskning! Men unngå ... Be om hjelp, avklaring eller svare på andre svar. Å komme med uttalelser basert på mening; Sikkerhetskopier dem med referanser eller personlig erfaring. For å lære mer, se tipsene våre for å skrive gode svar. Utkast lagret Utkast kastet Registrer deg eller logg inn StackExchange.ready (funksjon () { StackExchange.helpers.onClickDraftSave ('# login-link'); }); Registrer deg ved hjelp av Google Registrer deg ved hjelp av Facebook Registrer deg ved hjelp av e-post og passord Sende inn Legg ut som gjest Navn E-post Påkrevd, men aldri vist StackExchange.ready ( funksjon () { StackExchange.openid.initPostLogin ('. New-post-login', 'https% 3a% 2f% 2fstackoverflow.com% 2fquestions% 2f54745855% 2ftokenize-abstract-terminals-in-ll-grammar% 23new-answer', 'question_page' ); } ); Legg ut som gjest Navn E-post Påkrevd, men aldri vist Legg ut svaret ditt Kast Ved å klikke på "Legg ut svaret ditt" godtar du vilkårene for bruk, personvernregler og policy for informasjonskapsler Er ikke svaret du leter etter? Bla gjennom andre spørsmål tagget parsing lexer bnf ll rekursiv nedstigning eller still ditt eget spørsmål.